package com.zju.cst.spider;

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 * 解析工具类，根据Document解析网页中相应的信息
 * @author Best_
 */
public class Parse{
	
	/**
	 * 解析网页中的正文
	 * @param root DOM树root节点
	 * @return 字符串
	 */
	public static String getText(Document root){
		Element content = root.getElementById("p_content");
		if (content.hasText())
			return content.text();
		else throw new RuntimeException();
	}
	
	/**
	 * 获得网页标题
	 * @param root DOM树root节点
	 * @return 字符串
	 */
	public static String getTitle(Document root){
		Elements titles = root.getElementsByTag("title");
		if(titles.size() > 0){
			return titles.first().text();
		}
		return "";
	}
}
